The ability to compare the semantic similarity between text corpora is important in a variety of natural language processing applications. However, standard methods for evaluating these metrics have yet to be established. We propose a set of automatic and interpretable measures for assessing the characteristics of corpus-level semantic similarity metrics, allowing sensible comparison of their behavior. We demonstrate the effectiveness of our evaluation measures in capturing fundamental characteristics by evaluating them on a collection of classical and state-of-the-art metrics. Our measures revealed that recently-developed metrics are becoming better in identifying semantic distributional mismatch while classical metrics are more sensitive to perturbations in the surface text levels.
translated by 谷歌翻译
基于机器学习(ML)的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义,表示通过统计实验需要分析的系统关键性能指标。此外,可提供的培训和实验结果产生影响系统的设计。开发系统后,测试并不断监控,以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法,强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。
translated by 谷歌翻译
基于培训数据的各种统计特性,对基于统计数据(ML)技术概括或学习的基于统计数据。基础统计数据的假设导致理论或经验性能担保是培训数据的分布代表了生产数据分布。这个假设经常破裂;例如,数据的统计分布可能会改变。我们术语改变会影响ML性能“数据漂移”或“漂移”。许多分类技术对其结果计算了信心的衡量标准。该措施可能不会反映实际的ML表现。一个着名的例子是熊猫图片,正确地归类为距离约60 \%,但是当添加噪音时,它被错误地被归类为长臂猿,置信度高于99 \%。但是,我们在此报告的工作表明,分类器的置信度量可用于检测数据漂移的目的。我们提出了一种完全基于分类器建议标签的方法及其对其的信心,用于警告可能导致数据漂移的数据分布或功能空间变化。我们的方法标识在模型性能下劣化,并且不需要在生产中标记通常缺乏或延迟的生产中的数据。我们的三种不同数据集和分类器的实验证明了这种方法在检测数据漂移方面的有效性。这特别令人鼓舞,因为分类本身可能是或可能不正确,并且不需要模型输入数据。我们进一步探索了顺序变化点测试的统计方法,以便自动确定要识别漂移的数据量,同时控制误率(类型-1错误)。
translated by 谷歌翻译
考虑一个结构化的特征数据集,例如$ \ {\ textrm {sex},\ textrm {compy},\ textrm {race},\ textrm {shore} \} $。用户可能希望在特征空间观测中集中在哪里,并且它稀疏或空的位置。大稀疏或空区域的存在可以提供软或硬特征约束的域知识(例如,典型的收入范围是什么,或者在几年的工作经验中可能不太可能拥有高收入)。此外,这些可以建议用户对稀疏或空区域中的数据输入的机器学习(ML)模型预测可能是不可靠的。可解释的区域是一个超矩形,例如$ \ {\ textrm {rame} \ in \ {\ textrm {black},\ textrm {white} \} \} \} \&$ $ \ {10 \ leq \ :\ textrm {体验} \:\ leq 13 \} $,包含满足约束的所有观察;通常,这些区域由少量特征定义。我们的方法构造了在数据集中观察到的特征空间的基于观察密度的分区。它与其他人具有许多优点,因为它适用于原始域中的混合类型(数字或分类)的特征,也可以分开空区域。从可视化可以看出,所产生的分区符合人眼可能识别的空间分组;因此,结果应延伸到更高的尺寸。我们还向其他数据分析任务展示了一些应用程序,例如推断M1模型误差,测量高尺寸密度可变性以及治疗效果的因果推理。通过分区区域的超矩形形式可以实现许多这些应用。
translated by 谷歌翻译
训练有素的ML模型被部署在另一个“测试”数据集上,其中目标特征值(标签)未知。漂移是培训数据和部署数据之间的分配变化,这是关于模型性能是否改变的。例如,对于猫/狗图像分类器,部署过程中的漂移可能是兔子图像(新类)或具有变化特征(分布变化)的猫/狗图像。我们希望检测这些更改,但没有部署数据标签,无法衡量准确性。相反,我们通过非参数测试模型预测置信度变化的分布间接检测到漂移。这概括了我们的方法,并回避特定于域特异性特征表示。我们使用变更点模型(CPMS;参见Adams and Ross 2012)解决了重要的统计问题,尤其是在顺序测试中类型1误差控制。我们还使用非参数异常方法来显示用户可疑观察结果以进行模型诊断,因为更改置信度分布显着重叠。在证明鲁棒性的实验中,我们在MNIST数字类别的子集上进行训练,然后在各种设置中的部署数据中插入漂移(例如,看不见的数字类)(漂移比例的逐渐/突然变化)。引入了新的损耗函数,以比较不同水平的漂移类污染的漂移检测器的性能(检测延迟,1型和2个误差)。
translated by 谷歌翻译
Deep neural networks (DNNs) have greatly impacted numerous fields over the past decade. Yet despite exhibiting superb performance over many problems, their black-box nature still poses a significant challenge with respect to explainability. Indeed, explainable artificial intelligence (XAI) is crucial in several fields, wherein the answer alone -- sans a reasoning of how said answer was derived -- is of little value. This paper uncovers a troubling property of explanation methods for image-based DNNs: by making small visual changes to the input image -- hardly influencing the network's output -- we demonstrate how explanations may be arbitrarily manipulated through the use of evolution strategies. Our novel algorithm, AttaXAI, a model-agnostic, adversarial attack on XAI algorithms, only requires access to the output logits of a classifier and to the explanation map; these weak assumptions render our approach highly useful where real-world models and data are concerned. We compare our method's performance on two benchmark datasets -- CIFAR100 and ImageNet -- using four different pretrained deep-learning models: VGG16-CIFAR100, VGG16-ImageNet, MobileNet-CIFAR100, and Inception-v3-ImageNet. We find that the XAI methods can be manipulated without the use of gradients or other model internals. Our novel algorithm is successfully able to manipulate an image in a manner imperceptible to the human eye, such that the XAI method outputs a specific explanation map. To our knowledge, this is the first such method in a black-box setting, and we believe it has significant value where explainability is desired, required, or legally mandatory.
translated by 谷歌翻译
深度神经网络(DNNS)在各种方案中对对抗数据敏感,包括黑框方案,在该方案中,攻击者只允许查询训练有素的模型并接收输出。现有的黑框方法用于创建对抗性实例的方法是昂贵的,通常使用梯度估计或培训替换网络。本文介绍了\ textit {Attackar},这是一种基于分数的进化,黑框攻击。 Attackar是基于一个新的目标函数,可用于无梯度优化问题。攻击仅需要访问分类器的输出徽标,因此不受梯度掩蔽的影响。不需要其他信息,使我们的方法更适合现实生活中的情况。我们使用三个基准数据集(MNIST,CIFAR10和Imagenet)使用三种不同的最先进模型(Inception-V3,Resnet-50和VGG-16-BN)测试其性能。此外,我们评估了Attackar在非分辨率转换防御和最先进的强大模型上的性能。我们的结果表明,在准确性得分和查询效率方面,攻击性的表现出色。
translated by 谷歌翻译
高能量密度物理(HEDP)实验通常涉及在低密度泡沫内部传播的动态波 - 前。这种效果会影响其密度,因此影响其透明度。泡沫生产中的一个常见问题是产生有缺陷的泡沫。需要有关其尺寸和同质性的准确信息来对泡沫的质量进行分类。因此,这些参数使用3D测量激光共聚焦显微镜进行表征。对于每个泡沫,拍摄五个图像:两张2D图像,代表顶部和底部泡沫平面和3D扫描的侧面横截面的三张图像。专家必须通过图像集进行手动对泡沫质量进行分类的复杂,苛刻和疲惫的工作,然后才能确定是否可以在实验中使用泡沫。目前,质量有两个二元级别的正常与缺陷。同时,通常需要专家来对正常缺陷的子类别进行分类,即有缺陷但可能需要实验的泡沫。由于不确定的判断,该子类是有问题的,这主要是直观的。在这项工作中,我们提出了一种新颖的最先进的多视图深度学习分类模型,该模型通过自动确定泡沫的质量分类并因此有助于专家来模仿物理学家的观点。我们的模型在上表面和下表面泡沫平面上达到了86 \%的精度,整个集合中达到了82 \%,这表明了该问题的有趣启发式方法。这项工作中的一个重大价值是能够回归泡沫质量而不是二进制扣除,甚至可以在视觉上解释该决定。本工作中使用的源代码以及其他相关来源可在以下网址获得:https://github.com/scientific-computing-lab-nrcn/multi-view-foams.git
translated by 谷歌翻译
激活功能(AFS)在神经网络的性能中起关键作用。整流线性单元(RELU)当前是最常用的AF。已经提出了几个替代者,但事实证明,改进措施不一致。一些AFS在特定任务中表现出更好的性能,但是很难先验如何选择合适的任务。研究标准完全连接的神经网络(FCN)和卷积神经网络(CNN),我们提出了一种新颖的,三个人群,共同进化算法来进化AFS,并将其与其他四种方法进行比较,即进化和非进化。在四个数据集(MNIST,FashionMnist,KMNIST和USPS)上进行了测试,共同进化被证明是找到良好的AFS和AF体系结构的性能算法。
translated by 谷歌翻译
深厚的增强学习(DRL)在各种机器人应用中取得了突破性的成功。自然的结果是采用这种范式来进行关键的任务,其中可以涉及人类安全和昂贵的硬件。在这种情况下,至关重要的是优化基于DRL的代理的性能,同时提供其行为的保证。本文提出了一种新型技术,用于将域专家知识纳入受约束的DRL训练环中。我们的技术利用了基于方案的编程范式,该范式旨在以简单而直观的方式指定此类知识。我们验证了有关流行的机器人地图导航问题,模拟和实际平台的方法。我们的实验表明,使用我们的方法利用专家知识极大地提高了代理的安全性和性能。
translated by 谷歌翻译